Hadoop的MapReduce

Hadoop的MapReduce是对MapReduce的工程实践,做了大量的优化

  1. MapReduce中排序发生在哪几个阶段??这些排序是否可以避免,为什么??
    一个MapReduce作业由Map阶段和Reduce阶段两部分组成,这两阶段会对数据排序,
  • Map Task会在本地磁盘输出一个按照key排序(采用的是快速排序)的文件( 实际上Map阶段的排序就是为了减轻Reduce端排序负载)
  • 在Reduce阶段,每个Reduce Task会对收到的数据排序,
  1. 如何排序,用什么排序算法